盘点单细胞转录组分析的那些坑
相信大家对常规转录组的分析流程都已经很熟悉了,有一些常规的bulk RNA-seq分析策略可以安全的应用到scRNA-seq数据上,比如测序数据质控(cutadapt, trimmomatic),比对(tophat, histat)等分析方法。不过在比对时也需要注意两点:(1)如果建库过程中加入了spike-ins,在比对过程中需要把spike-in序列加到参考序列中;
(2)如果加入了UMI标签,在比对的时候需要先把UMI移除。
今天我们主要来介绍一下单细胞转录组数据分析需要注意的地方。
1,过滤低质量细胞
在scRNA-seq分析中,有些细胞质量比较低,比如细胞处于凋亡状态,细胞中RNA发生降解等,这些细胞的存在会影响分析,因此我们第一步需要对细胞进行过滤。主要可分为三类:
(1)利用细胞检测到的基因数或者是reads比对率来判断技术噪音[1],但不管是基因检测数目还是比对率都跟实验方法有很大相关性。如果比对率太低,表明RNA可能发生了降解,或者文库有污染或者细胞裂解不完全。
(2)如果实验中加入了spike-ins,可以通过计算比对到内源性RNA和外源性RNA(spike-ins)的reads比例来过滤低质量细胞,比值偏低表明细胞中的RNA数量较低,细胞可丢弃。但是也需要注意其实当细胞状态不一样,比如处于不同细胞周期时,细胞的RNA数量是具有很大差异的。不过我们依然认为在一大群细胞中,spike-ins比例特别高的细胞在很大概率上应该被排除在外[2]。这里软件SinQC(Single-cell RNA-seq Quality Control)[3]就可以根据比对率和检测到的基因数来过滤细胞(图1)。
(3)根据整体的基因表达谱来定义技术噪音。比如对细胞进行聚类分析,PCA分析等,将outlier细胞删除[4],或者细胞表达中位值低于某一设定阈值时将该细胞过滤掉[5]。当然这种方法也存在误删具有真正生物学差异的细胞,因此在删除细胞时需要小心,可与上述另外两种方法连用。
图1 低质量细胞过滤
2,基因表达谱标准化
在分析bulk RNA-seq数据的时候,针对不同文库进行reads count的矫正可以采用FPKM, TPM等方法,这些标准化方法隐含的一个假设条件是每个样本总的RNA量是差不多的(其实在很多情况下,这种假设有一定的误导性,比如单细胞转录组测序中每个细胞的RNA量是不一样的,最后构建的文库大小就不一样)。针对scRNA-seq数据进行标准化主要分以下几种情况[6]:
(1)不含UMI和spike-ins的scRNA-seq数据标准化
应用bulk RNA-seq标准化方法,如计算FPKM,RPKM等或者计算基因的reads count,然后对count值进行标准化,如size factor(DESeq), RLE(edgeR), TMM (edgeR)等。上面已经提过这种标准化方法应用的一个前提条件是样本总的RNA量是一样的,(其实没有spike-ins的情况下很难确定细胞中的RNA量),而且单细胞转录组建库过程中存在的3'偏好性使得现有的根据转录本长度进行表达值的矫正并不是非常适用单细胞测序(容易低估长转录本的表达,高估短转录本的表达),在使用时需要小心。
(2)加入spike-ins的scRNA-seq数据标准化
首先计算比对到感兴趣基因组(比如人类hg19)上的reads数和比对到spike-ins的reads数的比例,在所有细胞添加的spike-ins数量一致时,可以推断细胞间RNA数量差异。然后根据加入的spike-ins的数量,估计每个基因mRNA分子的绝对数量。
(3)带UMI的scRNA-seq数据标准化
在测序数量饱和的情况下,根据连接到每个基因的UMI数量直接衡量cDNA分子数目。
其实目前还没有很好的广泛应用的既考虑测序深度又考虑细胞尺寸(cell size)的scRNA-seq数据标准化方法。
3,评估技术噪音
在单细胞测序中起始RNA含量越低,技术重复样本的基因表达相关性也越低,因此生成标准化的基因表达谱之后,非常重要的一步是评估技术噪音(technical variability)。比较常见的一种方法是计算基因表达值的变异系数的平方(CV^2),对加入的spike-ins的CV^2进行回归分析,评估技术噪音基线,确定变异度高的基因,这些基因的表达变化可以反映细胞间的差异(下图中红色点表示高变异度的基因,蓝色点表示spike-ins)[7]。
图2 评估技术噪音
4,矫正其他混淆因素
(a) 批次效应(batch effects): scRNA-seq数据很难用回归分析的方法矫正批次效应,解决该问题的一个办法就是增加生物学重复。
(b) 生物学因素:比如细胞周期等。这里介绍一个方法scLVM[8],它最初是被设计用来矫正细胞周期对基因表达的影响。它能够把细胞间的基因表达差异分解成不同来源,比如技术噪音,细胞周期差异以及生物学差异。将scLVM方法应用到T细胞分化研究中,可以发现直接对表达谱进行PCA分析,无法看到明显的细胞亚群(图3:左:),进行细胞周期矫正后则能观察到两个不同的亚群(图3:右)。
图3 细胞周期矫正前后PCA结果比较
对表达谱数据进行前期预处理后,接下来就是对数据进行分析并回归到解决具体的生物学问题了。scRNA-seq主要有如下应用:
1,鉴定细胞类型和细胞状态。
对单细胞基因表达谱进行聚类分析,可能会鉴定出未知的细胞类型。通过研究这些细胞特异表达的基因的功能,可以进一步了解这些细胞的特征。比如分析一群处于不同分化阶段的细胞,可以把这些细胞映射到不同的分化阶段,进而通过分析不同阶段的细胞表达特征来理解整个分化过程。
常见的分析方法:层次聚类,tSNE,PCA,SC3,SINCERA等。
2,差异表达分析
既然已经把细胞分成了很多亚类,接下来就该筛选用来区分不同细胞亚群的基因集了。最简单的方法就是鉴定各亚群间差异表达的基因,目前大多数单细胞转录组差异基因分析方法与bulk RNA-seq分析中用到的方法一样,常见的R包有edgeR,DESeq等。当然也有利用贝叶斯方法分析单细胞转录组数据中的差异基因[9]。
3,特征选择:鉴定高变异度基因(highly variable genes)
除了分析差异基因外,单细胞转录组分析的一大挑战是鉴定在一群细胞中表达变异度最高的基因。鉴定高变异度基因时需要考虑技术噪音导致的变异度,或者其他混淆因素(细胞周期等)带来的差异。
前面评估技术噪音中已经讲到过,这里不再重复。
4,基因表达调控网络
转录组分析中比较常见的还有分析基因共表达模块和调控网络分析。一般表达水平高度相关的基因对我们倾向于认为是共调控的。比较常用的如R包WGCNA。
最后推荐三个分析单细胞转录组数据的神器:monocle,seurat, scater,这三大R包你值得拥有。
参考文献
1, KUMAR, Roshan M., et al. Deconstructing transcriptional heterogeneity in pluripotent stem cells. Nature, 2014, 516.7529: 56.
2, STEGLE, Oliver; TEICHMANN, Sarah A.; MARIONI, John C. Computational and analytical challenges in single-cell transcriptomics. Nature Reviews Genetics, 2015, 16.3: 133.
3, JIANG, Peng; THOMSON, James A.; STEWART, Ron. Quality control of single-cell RNA-seq by SinQC. Bioinformatics, 2016, 32.16: 2514-2516.
4, ZEISEL, Amit, et al. Cell types in the mouse cortex and hippocampus revealed by single-cell RNA-seq. Science, 2015, 347.6226: 1138-1142.
5, POLLEN, Alex A., et al. Low-coverage single-cell mRNA sequencing reveals cellular heterogeneity and activated signaling pathways in developing cerebral cortex. Nature biotechnology, 2014, 32.10: 1053.
6, STEGLE, Oliver; TEICHMANN, Sarah A.; MARIONI, John C. Computational and analytical challenges in single-cell transcriptomics. Nature Reviews Genetics, 2015, 16.3: 133.
7, BRENNECKE, Philip, et al. Accounting for technical noise in single-cell RNA-seq experiments. Nature methods, 2013, 10.11: 1093.
8, BUETTNER, Florian, et al. Computational analysis of cell-to-cell heterogeneity in single-cell RNA-sequencing data reveals hidden subpopulations of cells. Nature biotechnology, 2015, 33.2: 155.
9, KHARCHENKO, Peter V.; SILBERSTEIN, Lev; SCADDEN, David T. Bayesian approach to single-cell differential expression analysis. Nature methods, 2014, 11.7: 740.
更多精彩内容,欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史